Normal estimation for unstructured point clouds is an important task in 3D computer vision. Current methods achieve encouraging results by mapping local patches to normal vectors or learning local surface fitting using neural networks. However, these methods are not generalized well to unseen scenarios and are sensitive to parameter settings. To resolve these issues, we propose an implicit function to learn an angle field around the normal of each point in the spherical coordinate system, which is dubbed as Neural Angle Fields (NeAF). Instead of directly predicting the normal of an input point, we predict the angle offset between the ground truth normal and a randomly sampled query normal. This strategy pushes the network to observe more diverse samples, which leads to higher prediction accuracy in a more robust manner. To predict normals from the learned angle fields at inference time, we randomly sample query vectors in a unit spherical space and take the vectors with minimal angle values as the predicted normals. To further leverage the prior learned by NeAF, we propose to refine the predicted normal vectors by minimizing the angle offsets. The experimental results with synthetic data and real scans show significant improvements over the state-of-the-art under widely used benchmarks.
translated by 谷歌翻译
Arbitrary style transfer (AST) transfers arbitrary artistic styles onto content images. Despite the recent rapid progress, existing AST methods are either incapable or too slow to run at ultra-resolutions (e.g., 4K) with limited resources, which heavily hinders their further applications. In this paper, we tackle this dilemma by learning a straightforward and lightweight model, dubbed MicroAST. The key insight is to completely abandon the use of cumbersome pre-trained Deep Convolutional Neural Networks (e.g., VGG) at inference. Instead, we design two micro encoders (content and style encoders) and one micro decoder for style transfer. The content encoder aims at extracting the main structure of the content image. The style encoder, coupled with a modulator, encodes the style image into learnable dual-modulation signals that modulate both intermediate features and convolutional filters of the decoder, thus injecting more sophisticated and flexible style signals to guide the stylizations. In addition, to boost the ability of the style encoder to extract more distinct and representative style signals, we also introduce a new style signal contrastive loss in our model. Compared to the state of the art, our MicroAST not only produces visually superior results but also is 5-73 times smaller and 6-18 times faster, for the first time enabling super-fast (about 0.5 seconds) AST at 4K ultra-resolutions. Code is available at https://github.com/EndyWon/MicroAST.
translated by 谷歌翻译
在推荐系统中,项目可能会接触到各种用户,我们想了解新用户对现有项目的熟悉。这可以作为异常检测(AD)问题进行配置,该问题区分“普通用户”(名义)和“新用户”(异常)。考虑到物品的庞大数量和用户项目配对数据的稀疏性,在每个项目上独立应用传统的单任务检测方法很快就变得困难,而项目之间的相关性则被忽略。为了解决这个多任务异常检测问题,我们建议协作异常检测(CAD)共同学习所有任务,并通过任务之间的嵌入编码相关性来学习所有任务。我们通过条件密度估计和条件可能性比估计来探索CAD。我们发现:$ i $)估计似然比的学习效率更高,并且比密度估计更好。 $ ii $)提前选择少量任务以学习任务嵌入模型,然后使用它来启动所有任务嵌入是有益的。因此,这些嵌入可以捕获任务之间的相关性并推广到新的相关任务。
translated by 谷歌翻译
在小组活动识别中,层次结构框架被广泛采用以表示个人及其相应小组之间的关系,并实现了有希望的绩效。但是,现有方法在此框架中仅采用了最大/平均池,这忽略了不同个体对小组活动识别的不同贡献。在本文中,我们提出了一种新的上下文合并方案,名为Ascentive Pooling,该方案可以从个人动作到小组活动的加权信息过渡。通过利用注意机制,细心的合并是可解释的,并且能够将成员环境嵌入现有的层次模型中。为了验证拟议方案的有效性,设计了两种特定的专注合并方法,即全球细心合并(GAP)和分层的细心池(HAP)。差距奖励对小组活动意义重大的个体,而HAP通过引入亚组结构进一步考虑了层次结构。基准数据集上的实验结果表明,我们的建议在基线之外取得了显着优势,并且与最先进的方法相当。
translated by 谷歌翻译
最近的研究表明,通用风格转移的成功取得了巨大的成功,将任意视觉样式转移到内容图像中。但是,现有的方法遭受了审美的非现实主义问题,该问题引入了不和谐的模式和明显的人工制品,从而使结果很容易从真实的绘画中发现。为了解决这一限制,我们提出了一种新颖的美学增强风格转移方法,可以在美学上为任意风格产生更现实和令人愉悦的结果。具体而言,我们的方法引入了一种审美歧视者,以从大量的艺术家创造的绘画中学习通用的人类自愿美学特征。然后,合并了美学特征,以通过新颖的美学感知样式(AESSA)模块来增强样式转移过程。这样的AESSA模块使我们的Aesust能够根据样式图像的全局美学通道分布和内容图像的局部语义空间分布有效而灵活地集成样式模式。此外,我们还开发了一种新的两阶段转移培训策略,并通过两种审美正规化来更有效地训练我们的模型,从而进一步改善风格化的性能。广泛的实验和用户研究表明,我们的方法比艺术的状态综合了美学上更加和谐和现实的结果,从而大大缩小了真正的艺术家创造的绘画的差异。我们的代码可在https://github.com/endywon/aesust上找到。
translated by 谷歌翻译
在从少数类(基类)开始的情况下,已经广泛研究了课堂学习学习(CIL)。取而代之的是,我们探索了一个研究不足的CIL现实环境,该设置是从在大量基类中进行预训练的强大模型开始。我们假设强大的基本模型可以为新颖的类别提供良好的表示,并且可以通过小型适应来进行渐进的学习。我们提出了一个2阶段的训练方案,i)功能增强 - 将部分的克隆部分克隆并在新型数据上进行微调,ii)融合 - 将基础和新型分类器组合到统一的分类器中。实验表明,所提出的方法在大型成像网数据集上的最先进的CIL方法明显优于最先进的CIL方法(例如,总体准确度 +最佳 +最佳精度为10%)。我们还建议和分析研究研究的实际CIL方案,例如与分布转移的基础新颖性重叠。我们提出的方法是鲁棒的,并概括了所有分析的CIL设置。代码可从https://github.com/amazon-research/sp-cil获得。
translated by 谷歌翻译
在本文中,我们介绍了纹理改革器,一个快速和通用的神经基础框架,用于使用用户指定的指导进行交互式纹理传输。挑战在三个方面:1)任务的多样性,2)引导图的简单性,以及3)执行效率。为了解决这些挑战,我们的主要思想是使用由i)全球视图结构对准阶段,ii)局部视图纹理细化阶段和III)的新的前馈多视图和多级合成程序。效果增强阶段用相干结构合成高质量结果,并以粗略的方式进行细纹细节。此外,我们还介绍了一种新颖的无学习视图特定的纹理改革(VSTR)操作,具有新的语义地图指导策略,以实现更准确的语义引导和结构保存的纹理传输。关于各种应用场景的实验结果展示了我们框架的有效性和优越性。并与最先进的交互式纹理转移算法相比,它不仅可以实现更高的质量结果,而且更加显着,也是更快的2-5个数量级。代码可在https://github.com/endywon/texture --reformer中找到。
translated by 谷歌翻译
视频时刻检索旨在搜索与给定语言查询最相关的那一刻。然而,该社区中的大多数现有方法通常需要季节边界注释,这昂贵且耗时地标记。因此,最近仅通过使用粗略视频级标签来提出弱监督的方法。尽管有效,但这些方法通常是独立处理候选人的候选人,同时忽略了不同时间尺度中候选者之间的自然时间依赖性的关键问题。要应对这个问题,我们提出了一种多尺度的2D表示学习方法,用于弱监督视频时刻检索。具体地,我们首先构造每个时间刻度的二维图以捕获候选者之间的时间依赖性。该地图中的两个维度表示这些候选人的开始和结束时间点。然后,我们使用学习卷积神经网络从每个刻度变化的地图中选择Top-K候选。通过新设计的时刻评估模块,我们获得所选候选人的对齐分数。最后,标题和语言查询之间的相似性被用作进一步培训候选者选择器的监督。两个基准数据集Charades-STA和ActivityNet标题的实验表明,我们的方法能够实现最先进的结果。
translated by 谷歌翻译
When building a unified vision system or gradually adding new capabilities to a system, the usual assumption is that training data for all tasks is always available. However, as the number of tasks grows, storing and retraining on such data becomes infeasible. A new problem arises where we add new capabilities to a Convolutional Neural Network (CNN), but the training data for its existing capabilities are unavailable. We propose our Learning without Forgetting method, which uses only new task data to train the network while preserving the original capabilities. Our method performs favorably compared to commonly used feature extraction and fine-tuning adaption techniques and performs similarly to multitask learning that uses original task data we assume unavailable. A more surprising observation is that Learning without Forgetting may be able to replace fine-tuning with similar old and new task datasets for improved new task performance.
translated by 谷歌翻译